基于知识图谱与细胞自动机模型的配电网信息系统风险分析
梅冰笑, 周金辉, 孙翔
(国网浙江省电力有限公司电力科学研究院,浙江 杭州 310007)
摘要: 为了刻画配电网中信息系统的风险传播过程,保障电力系统安全可靠运行,利用知识图谱与细胞自动机技术相结合的方法实现对配电网信息系统的风险分析。首先利用知识图谱方法对配电网采集的多源异构信息开展风险知识提取和融合,实现对信息系统风险的静态分析。其次,构建配电网风险分析的细胞自动机模型,设计细胞在正常状态与故障状态之间的转变机制,实现对配电网信息风险发展过程的动态分析。最后结合仿真实验,验证了所提方法能够实现对配电网信息风险跨空间传播过程的有效刻画。
引文信息
梅冰笑, 周金辉, 孙翔. 基于知识图谱与细胞自动机模型的配电网信息系统风险分析[J]. 中国电力, 2022, 55(10): 23-31, 44.
MEI Bingxiao, ZHOU Jinhui, SUN Xiang. Analysis of distribution network information risks based on knowledge graph and cellular automata[J]. Electric Power, 2022, 55(10): 23-31, 44.
引言
近年来,各种先进量测、通信和控制技术密集应用在配电网中,其信息化程度迅速提高,导致信息系统对电力系统的影响日益增大。现代配电网状态感知、运行决策和经济运行越来越依赖信息系统的可靠运行,配电网已发展成为电力物理系统与信息通信系统深度融合的复杂动态系统[1-4] 。信息系统对配电网安全稳定的影响也逐渐突出:发生在信息系统上的失效事件,尤其是近年来日益频繁的网络攻击,对整个配电网的安全稳定运行造成了严重的影响。文献[5]针对乌克兰停电事件中网络攻击的原理、手段及目标开展分析,认为其是人类历史上信息安全影响电力系统运行的里程碑事件,文献[6]从发、输、配、用电侧4个环节综述了电力系统中网络攻击的典型场景,文献[7]从数据采集与监控(SCADA)系统受到网络攻击的角度开展不同攻击场景对电力系统可靠性的影响分析,文献[8]指出信息系统的事故将导致电力网络的瘫痪,针对网络攻击,文献[9]从攻击建模和系统安全评估方面进行了梳理分析。进而,文献[10]对信息系统风险在电力系统中的传播开展了建模分析,文献[11]从攻击方的角度开展了网络攻击对象和攻击模式的分析。上述研究主要从电力系统的传统模型和运行机理出发,侧重于依赖现有的硬件隔离装置和端口保护策略实现对来自信息系统风险的研究。为了进一步刻画攻击行为在信息物理耦合空间中的传播过程和演化规律,近年来通过利用电网运行状态大数据分析技术,开展其在安全防护中的研究应用逐渐增多。文献[12]指出应充分利用大量多源异构电力大数据,并从中提炼出深层知识并发挥其应用价值为电网安全服务,文献[13-15]通过利用电网运行态势分析技术,分别实现安全风险的估计预测、智能调度和安全防御机制构建,文献[16]总结了大数据和人工智能方法在故障诊断和状态预测等典型业务场景中的应用研究。可见,目前电网风险分析主要是利用电源管理单元(PMU)、SCADA等量测单元的数据分析,以大数据理论为基础分析电网状态信息和预测未来态势发展。以上工作为电网安全风险分析勾勒了蓝图,但未给出相关技术的详细论述,且多数研究仅停留于对量测数据的初步分析,未深入挖掘海量数据背后隐藏的电网异常状态之间的关联分析和风险传递关系,不能实现对网络攻击跨空间传播路径的精准估计。为了深入挖掘多源异构的配电网数据特征,更加全面掌握电网运行状态及风险传播过程,可利用知识图谱方法[17-22] 对采集的多源异构配电网数据进行风险知识的有效提取和深度融合,并通过构建多模态信息融合的风险知识图谱,实现对网络攻击的类型梳理和风险的关联分析。进一步的,为了刻画风险的动态传播过程,可利用细胞自动机技术[23-26] 实现对离散信息系统动态过程的精确建模。因此,本文首先利用知识图谱技术对配电网多源信息进行统一表征和存储,实现配电网风险过程的静态分析。进而基于细胞自动机建模分析技术,研究系统正常与故障状态的转变机制,实现对配电网中信息风险发展过程的动态分析。通过知识图谱与细胞自动机的结合,实现对风险传递信息的充分融合,进而达到对配电网安全风险动态演进过程的有效刻画和分析。
1 模型设计
1.1 总体设计 为了深入挖掘配电网海量数据背后隐藏的电网异常状态之间的关联和风险传递关系,实现对风险跨空间传播路径的精准估计,基于知识图谱和细胞自动机技术构建多源异构数据抽取和融合模型,该模型的总体框架如图1所示。
图1 总体技术路线 Fig.1 Overall technical framework
该模型主要包含2部分:风险知识图谱构建和基于细胞自动机的信息风险跨空间传播分析方法。整体的实现流程如下。(1)利用知识图谱从配电网多种类型的数据源中提取出风险实体,并归纳实体间的关联因素,在此基础上形成关于配电网风险实体的知识表达;对于不断加入的新风险数据,通过与原有实体信息进行整合,并排除新旧数据之间的矛盾和歧义,并进一步经过质量评估将合格的部分风险知识加入知识库,以确保风险故障分析的知识库的质量。通过上述风险知识图谱构建,实现对配电网风险过程的静态分析。(2)基于信息系统风险对电力物理设备的影响特点,构建配电网风险分析的细胞自动机模型,并设计细胞的正常与故障状态转变机制,以实现对配电网中信息风险发展过程的动态分析。(3)结合知识图谱和细胞状态机技术开展实验仿真,实现对信息风险的跨空间传播过程分析、细胞的防御程度对风险传播影响分析和故障细胞的自愈率对风险传播的影响分析。1.2 配电网风险分析知识图谱 近年来,电网公司通过多维度数据源信息的融合互通,初步实现配电网运行多层级的状态监测与管控。以省级配电网为例,每月在运行产生几十种类型高达数TB的多源异构大数据,同时存在着设备台账数据字段空缺和数据录入不准确等情况,导致难以充分发挥数据贯通、业务融合和资源共享优势,不能达到对配电网风险管控业务的有效支撑。而知识图谱技术能够实现对不同种类的文本、数据库、图片、视频等多源异构数据进行有效的信息抽取和知识融合,梳理数据之间的关联关系并实现知识合并和歧义消除,进而通过聚类整合大量知识信息,实现知识的质量评估和关联推理,形成简单清晰的 < 实体,关系,实体 > 三元组。这将为实现配电网中风险数据的深度挖掘和风险传播分析奠定良好的数据基础。1.2.1 配电网风险分析知识图谱的构建过程 考虑到配电网风险跨空间传播的特点,采用自顶向下的知识图谱构建技术实现配电网中风险实体抽取和风险传递关系的梳理。因此,面向配电网风险分析的知识图谱构建包括风险信息的抽取、风险知识的融合和风险知识的加工等基本过程,如图2所示。
图2 风险分析知识图谱构建过程
Fig.2 Construction process of risk analysis knowledge graph
首先,在信息抽取过程中,主要以从SCADA、地理信息系统(GIS)等数据库和互联网中采集到的结构化数据源为基础,通过采集到的各种类型结构化数据提取初步的实体信息,同时将半结构化及非结构化海量运行数据进行分类梳理,实现结合多个数据源信息的互相印证和补充,从而实现对配电网运行风险数据的规范化融合,实现有效的信息抽取。其次,在知识融合过程中,针对结构化数据和互联网数据通过知识合并获得进一步确切的实体分析,进而针对配电网中半结构化和非结构化时空数据,开展数据特征筛选与特征稳定性分析,从多维异态数据中提取基本特征,并在此基础上利用数据特征的交互融合分析实现实体歧义合并,为配电网信息空间中现有风险或潜在风险的全景评估奠定基础。最后,在知识加工过程中,根据知识融合后实体间的关联关系回溯发现风险成因和传播关系,从而进一步剥离错误实体,清理得出构建配电网风险分析的准确实体,并在精确推理、预测和评估基础上实现对配电网风险关联关系的刻画,最终构建融合实体和关联关系在内的三元组,以形成反映配电网风险的知识图谱。1.2.2 知识图谱构建关键技术 确定实体及其关系是构建配电网风险分析知识图谱的首要任务。配电网风险分析中所涉及的实体关系包涵了风险实体的定义、风险关系的归集与抽取等。其中,风险实体主要从结构化数据集中自动识别并确定风险发生的部件或装置。风险实体按照类别可以划分为一次系统设备类型风险实体和信息/测控系统等二次系统类型风险实体。而风险关系的归集与抽取主要是针对确定的与各种实体相关联的风险数据进行特征建模,然后基于模型处理海量数据集形成新的实体集,并针对新实体迭代生成实体之间的关联关系。然而,实体集中得到的是一系列孤立的实体,为了进一步反映风险实体间的深层逻辑关系,还需要进一步挖掘实体之间的关联关系。面对配电网中各种类型的风险数据,通过人工构造语法或半监督学习等机器学习技术,基于现有实体集知识,从大量半结构化或非结构化数据中进一步梳理实体间的相互联系,最终形成关联各个实体的知识网络图谱结构。在知识图谱技术中,通常采用表达实体间联系的三元组 < 实体,关系,实体 > 来描述风险传播过程中各个实体的关联关系。如在微机保护装置反馈的馈线电流谐波异常风险分析中,针对保护装置与电流的风险传递关系可用知识图谱三元组表示为 < 保护装置,谐波,电流 > ,而馈线与保护装置的风险传递关系用三元组 < 馈线,异常,保护装置 > 表示。为了图形化显示方便,借鉴图论知识可将实体简化为图论中的节点,而实体间的关联关系可用图论中的边表示。通过点与边的组合,配电网风险实体之间的传播关系可以用网络图形表示,从而以直观方式展示相应场景下的一次系统设备、二次系统设备的风险关联状态。通过以上风险实体的定义、风险关系的归集与抽取,将配电网风险故障信息转化为结构化三元组数据。考虑到针对同一风险故障的记录,有可能是来自GIS系统或者SCADA系统的结构化数据,也有可能是来自监控系统的图像、运维系统的报告等非结构化数据,导致在上述多源数据中包含重复的风险主体和关联关系描述等信息,通过数据清洗和质量提升技术,构建三元组的知识更新模块,开展对多个数据源数据的可靠性和一致性验证,并选择将各个数据源中高频度出现的风险主体和关系属性加入现有的风险知识库中。然后,根据配电网信息空间风险分析中已有的实体概念定义及分析框架,以三元组的形式将所有的风险知识联结起来,从而以关系联络图的直观形式存储在Neo4 j 图数据库中,实现对配电网风险故障实体的建模及关联关系梳理,最终构建配电网风险分析知识图谱。综上,通过借助从SCADA、GIS等数据库或互联网采集到的结构化数据源,首先选择其中高质量的数据,用于描述配电网风险的概念、演化和逻辑联系。进而提取抽象出风险实体和风险转移关系,通过采用图计算和深度学习等数据处理模式,筛选出影响配电网风险的主导实体和关键特征,利用关联、推理、预测等数据挖掘方法,对配网运行大数据进行基础信息挖掘,构建反映配电网时空大数据风险事件行为的知识图谱。通过知识图谱的构建,从数据分析的角度实现对风险故障传播时空动力学特性的认知,并且在风险分析过程中能够通过推理实现对未知潜在故障的预测能力,为电网风险分析和预警提供技术保障。1.3 配电网风险分析细胞自动机模型 配电网信息风险传递过程是一类时间和空间都离散的过程,而细胞自动机模型通过模拟细胞的自我复制过程,能够实现对离散事件的有效分析。细胞自动机模型一般包含细胞及其状态的建模、邻域细胞模型建模和细胞状态转换规则设计等要素。下面以配电网中的一次系统节点为电力细胞,以二次系统节点为信息细胞, 建立配电网风险分析细胞自动机模型。1.3.1 细胞及其状态模型 根据配电网风险分析知识图谱三元组,将其所包含的设备分为一次系统中的电力细胞和二次系统中的信息细胞两类。其中, 电力细胞主要指的是实现电能产生、传输和转化的设备,例如发电单元、负荷单元等一次系统节点,而信息细胞主要指实现信息采集、通信传输、保护控制的设备,例如SCADA、前置通信单元、控制器等二次系统节点。不论电力细胞或者信息细胞,在风险传播过程中,细胞的状态要么处于正常状态,要么处于故障状态,并随着时间在二种状态之间变化。1.3.2 细胞邻域模型 在风险传播过程中,配电网中细胞状态的动态变化过程可用有向图 G =(V ,E ) 表示,其中 V 是细胞集合, E 是细胞间关联关系集合。令细胞i 和j 之间的邻域关系用邻域矩阵 Z ={z i ,j }i ,j ∈V 表示,若细胞i 和j 之间存在关联则 zi ,j =1 ,反之则 zi ,j =0 。通过对邻域矩阵进行分块处理,可进一步精确刻画配电网风险传递过程,从而将电力细胞和信息细胞的关系与邻域矩阵建立对应关系。邻域矩阵的分块结果可表示为
式中:m 和n 分别为电力细胞和信息细胞数量。具体的, A =(ai ,j )m ×m 为邻域矩阵中与信息细胞相关的部分,是信息细胞间的风险传递矩阵。假设配电网中有m 个信息细胞, ai ,j 表示风险从信息细胞i 出发传递给信息细胞j 的概率。一般的,传递概率根据目标细胞的防御程度得出,即 式中: βj 和 βk 分别为细胞 j 和细胞 k 防御机制的配置水平; Ni 为细胞i 的邻域细胞集合。一般的,通过参考配电网脆弱性分析中节点访问复杂度,设置风险传递概率的取值为[0, 1]。因此细胞防御程度越高,风险从信息细胞i 传递给信息细胞j 的概率越小。与信息细胞相关矩阵A =(ai ,j )m ×m 相对应的,邻域矩阵中与电力细胞相关联的部分是 D =(di ,j )n ×n ,表示电力细胞间的关系矩阵。具体的, di ,j 表示电力细胞间的功率关系。当 i =j 时,分2种情况讨论: di ,j >0 表示电力细胞i 输出功率,而 di ,j <0 表示电力细胞i 消耗功率;当 i ≠j 时, 分2种情况讨论: di ,j >0 表示功率从细胞i 流向细胞j ,而 di ,j <0 则表示功率从细胞j 流向细胞i 。电力细胞与信息细胞的关联关系用矩阵 B =(bi ,j )m ×n 和 C =(ci ,j )n ×m 表示。其中, B =(bi ,j )m ×n 是信息细胞对电力细胞的风险传递矩阵,刻画了信息细胞风险对电力细胞的传递影响,其元素值表示信息细胞风险转化为电力细胞风险的相关性,取值为[0, 1]。而 C =(ci ,j )n ×m 则表示电力细胞将风险传递给信息细胞的概率。本文主要研究信息风险的传播机制, 因此矩阵 C 设定为零矩阵。 1.3.3 状态转换规则模型 为了精准描述配电网风险传递过程,需要对细胞的状态变化规则进行分析并在此基础上设计细胞的状态转化规则模型。(1)信息细胞的状态变化。一般的,对于任意信息细胞 i ,令其在t 时刻的状态为 si (t ) , 那么其在t +1时刻的状态 si (t +1) 不但受到其在t 时刻状态的影响,同时受到其邻域细胞在t 时刻状态集合的影响。如果存在某一邻域信息细胞 j 因受到网络攻击而具有风险传播危险,那么细胞 i 将会以 aj ,i 的概率被感染,即信息细胞 j 以概率 aj ,i 攻击感染邻域细胞 i 。因此信息细胞 i 在t +1时刻发生风险故障的概率可表示为
此外,在信息系统中一般存在一定的安全防御机制。因此,在信息细胞 i 状态转移中还要考虑细胞防御机制的配置程度 βi ,因此在t +1时刻信息细胞 i 被成功攻击的最终概率为 同时,由于系统校验和自我修复机制的存在,信息细胞i 能够以一定概率恢复正常状态,即细胞具有一定的自愈率。综上,信息细胞i 状态转换规则为 式中:表示状态 si (t ) 的翻转操作; g 是细胞状态变化的主要判断指标。 具体有 式中: r 为信息细胞状态变化中受到的随机噪声干扰; εi 为信息细胞 i 的自愈率。根据式(6)~(8)可知,细胞状态的变化主要根据指标 g 判断,其中 g 1 是判断细胞从正常状态变化为故障状态的相关指标,而 g 2 是判断细胞从故障状态变化为正常状态的相关指标。 (2) 电力细胞的状态变化。 一方面,信息细胞影响电力细胞运行状态的变化。处于故障状态的信息细胞i 将影响与之相关联的正常电力细胞j ,使其状态转化到故障状态。如果信息细胞i 由故障状态自愈恢复到正常状态, 则与之关联的电力细胞j 也会以一定概率转换到正常状态,这种自我修复概率即为电力细胞的自愈率。另一方面,电力细胞状态也会对与之关联的邻域电力细胞的状态变化产生影响。如果电力细胞 i 和 j 间的额定传输功率为当电力细胞间的传输功率 则导致电力细胞 i 和 j 均呈现出故障状态。 综上,电力细胞 i 的状态变化规律为
2 仿真实验及分析
2.1 仿真模型及场景设置 本文选择如图3所示的配电网仿真系统,对信息风险过程开展分析。
图3 仿真系统
Fig.3 Structure of the simulation system
在电力物理空间,仿真系统具有3台发电机G1、G2、G3,配置负荷为L1、L2、L3,3台发电机分别通过变压器 T1、T2、T3实现区域供电。同时,在信息通信空间,发电机、变压器和负荷端均配置相应的监控和传感设备,通过通信系统与配电网监控主机相连。在配电网中,信息细胞风险传递到电力细胞的整体过程主要与3个因素相关,分别是信息细胞到电力细胞的风险传递矩阵B 、细胞防御机制被攻破的概率和细胞从故障到正常状态的自愈率。为此, 仿真实验对应设计相应的3个场景开展分析。本文主要考虑信息细胞风险对电力细胞的影响,因此仿真中主要关注随着信息细胞风险传播,电力细胞的故障规模指标变化情况,该指标可定义为
式中: I (t ) 为t 时刻处于故障状态的电力细胞数量 N f (t ) 占全部电力细胞总量 N 的比例,也是仿真实验的主要分析指标。2.2 仿真流程 针对上述场景,仿真实验主要包括以下步骤。(1)利用配电网风险数据通过知识图谱技术,构建风险分析三元组;(2)随机选择配电网中任意信息细胞变化为故障状态;(3)根据知识图谱三元组知识,判断是否有相关电力细胞发生故障。根据细胞状态转换规则更新信息细胞和电力细胞的状态;(4)如果有电力细胞变化为故障状态,则计算配电网的系统潮流,否则等待进行到下一时刻;(5)达到仿真结束条件,输出电力细胞故障规模指标 I (t ) 。2.3 仿真结果 2.3.1 配电网信息风险分析知识图谱构建 基于配电网仿真实验需要,通过设计相应的故障场景积累历史风险数据,并在数据清洗的基础上利用图数据库Neo4 j技术对知识图谱中检测识别出的风险实体与状态进行查询,返回与之关联的实体及属性,完成风险知识库的融合加工。基于知识图谱的三元组分析结果,实现对风险的静态分析,为利用细胞自动机技术实现风险传播过程的动态分析奠定基础。图4是配电网中发电机G1监控单元信息风险传播过程的知识图谱分析结果。
图4 G1信息风险传播过程的知识图谱
Fig.4 Knowledge graph of G1 information risk propagation
2.3.2 配电网信息风险的传播动态仿真 以发电机G1的监控单元感染病毒为例,基于知识图谱得到的结构化知识和细胞自动机的离散状态分析技术,开展对信息风险传播过程的仿真模拟。该信息风险传播过程如图5所示。
图5 信息风险动态发展过程
Fig.5 Dynamic evolution process of information risks
其中, 假定细胞自愈率 ε =0,细胞的防御程度为0.5,即风险传播成功的概率为0.5。信息细胞是图5中的第1行方格,分别代表仿真系统中G1、G2、G3、T1、L1、T2、L2、T3、L3的监控单元;电力细胞是图5中的矩形方格,矩阵的行与列分别对应系统中的母线序号,图5刻画了矩阵Z 中的分块矩阵B ,即信息细胞对电力细胞的风险传递和影响过程。在t 时刻,G1监控单元感染病毒,由于电力细胞防御机制存在,信息风险并没立刻传播给电力细胞;在t +1时刻,由于邻域细胞感染,导致与G1相关联的T1监控单元转移到故障状态,同时发电机G1进入故障状态。与此同时,系统潮流重新计算,导致母线8与母线9之间线路功率超限而退出运行;在t +2时刻,由于细胞防御机制的存在,变压器T1仍未受到信息风险的影响,但随着故障在电力细胞间的扩散,导致多条母线因功率超限退出运行。最终系统中电源和负荷均无法联络,导致系统停电事故。以上是仅仅对发电机G1监控单元信息细胞风险传播过程的分析,为了分析不同信息细胞风险对系统的影响情况,接下来开展信息风险传播对电力细胞故障规模指标的影响分析,如图6所示。
图6 风险演化的时间特性
Fig.6 Temporal characteristics of risk evolution
其中,G1、G2、G3、T1、L1、T2、L2、T3、L3的监控单元分别对应9个信息细胞,分别记为节点1到节点9,并且电力细胞故障规模指标采用260次仿真的统计均值。由图6可知,信息细胞风险对电力系统故障规模产生一定程度的影响,但是不同的信息细胞风险其影响程度是不同的。具体的,从传播速度上分析可知,除母线L1监控单元所代表的节点5外, 其他细胞风险传播后的4个仿真步长能够导致80%以上的电力细胞转移到故障状态。进一步分析可知, 变压器T2监控单元所代表的节点6在受到风险感染后,导致电力细胞达到60%故障规模的时间最短,可知变压器T2的监控单元重要性突出,尤其要施加更加全面有效的安全防御措施。2.3.3 风险防御机制对电力故障规模的影响 选取发电机G1监控单元故障为例,分析信息细胞风险传播对象在不同的防御程度下,电力细胞故障规模的变化情况,如图7所示。
图7 细胞防御程度对故障规模的影响
Fig.7 Impact of cellular defense degree on the scale of failure
其中,假定所有细胞从故障状态无法自行恢复到正常状态,即自愈率为0。发电机G1的信息细胞风险传播到邻域电力细胞过程中,电力细胞的防御程度β 从0.1等步长变化到0.9。由图7可见,在故障传播后的任意时间断面处,随着电力细胞防御程度的增强,由于G1监控单元信息风险传播导致电力细胞的故障规模逐渐降低;同时当系统稳态时,防御程度越高,电力细胞的故障规模越小。2.3.4 细胞自愈率对电力故障规模的影响 接下来针对细胞从故障状态自动转换到正常状态的能力,即细胞的自愈率对电力细胞故障规模的影响开展分析,实验结果如图8所示。
图8 自愈率对电力故障规模的影响
Fig.8 Impact of cure rates on the scale of failure
其中,信息故障来自发电机G1的监控单元,同时假定所有细胞的防御程度均为0.5。为了比较不同细胞自愈率对电力细胞故障规模的影响,设定细胞自愈率 ε 从0.9等步长减小到0.2,令 b =1−ε 刻画细胞自身的欠修复能力。对应细胞的欠修复能力 b 从0.1等步长增长到0.8。由图8可知,信息细胞的欠修复能力越弱,其自愈率越高,导致由G1监控单元中的信息风险所造成的故障规模越小。因此通过增强信息细胞节点的自我修复机制,可以有效提升配电网抵抗风险传播的能力。
3 结语
为了实现对配电网中信息系统风险的传播过程的精确刻画,本文利用知识图谱与细胞自动机技术相结合的方法实现对配电网信息系统的风险分析。首先通过知识图谱技术实现配电网中与风险关联的多源异构数据的有效提取和融合,构建反映配电网风险实体关联关系的知识图谱三元组,实现对信息系统风险的静态刻画;进而构建配电网风险分析的细胞自动机模型,设计细胞状态转变机制,实现对配电网中信息系统风险传播过程的动态分析。在未来研究中,应着重考虑细胞状态转换时间对风险定量分析的影响,并考虑风险在信息系统中的传播速率与仿真时间间隔的对应关系,以进一步精细刻画风险传播的过程。(责任编辑 张重实)
作者介绍
梅冰笑(1978—),男,硕士,高级工程师,从事电力系统设备管理与安全技术研究,E-mail:48733021@qq.com; ★
周金辉(1983—),男,通信作者,博士,高级工程师(教授级),从事智能配电网技术研究与工程应用,E-mail:38892714@qq.com.